<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>字典词干提取器 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/dictionary-stemmers.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/dictionary-stemmers.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/dictionary-stemmers.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/dictionary-stemmers.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-link"><a href="stemming.html">将单词还原为词根</a></span>
»
<span class="breadcrumb-node">字典词干提取器</span>
</div>
<div class="navheader">
<span class="prev">
<a href="algorithmic-stemmers.html">« 词干提取算法</a>
</span>
<span class="next">
<a href="hunspell.html">Hunspell 词干提取器 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="dictionary-stemmers"></a>字典词干提取器<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/230_Stemming/20_Dictionary_stemmers.asciidoc">edit</a>
</h2>
</div></div></div>
<p><em>字典词干提取器</em> 在工作机制上与 <a class="xref" href="algorithmic-stemmers.html" title="词干提取算法">算法化词干提取器</a> 完全不同。  不同于应用一系列标准规则到每个词上，字典词干提取器只是简单地在字典里查找词。理论上可以给出比算法化词干提取器更好的结果。一个字典词干提取器应当可以：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
返回不规则形式如 <code class="literal">feet</code> 和 <code class="literal">mice</code> 的正确词干
</li>
<li class="listitem">
区分出词形相似但词义不同的情形，比如 <code class="literal">organ</code> and <code class="literal">organization</code>
</li>
</ul>
</div>
<p>实践中一个好的算法化词干提取器一般优于一个字典词干提取器。应该有以下两大原因：</p>
<div class="variablelist">
<dl class="variablelist">
<dt>
<span class="term">
字典质量
</span>
</dt>
<dd>
<p>一个字典词干提取器再好也就跟它的字典一样。 据牛津英语字典网站估计，英语包含大约75万个单词（包含变音变形词）。电脑上的大部分英语字典只包含其中的 10% 。</p>
<p>词的含义随时光变迁。<code class="literal">mobility</code> 提取词干 <code class="literal">mobil</code> 先前可能讲得通，但现在合并进了手机可移动性的含义。字典需要保持最新，这是一项很耗时的任务。通常等到一个字典变得好用后，其中的部分内容已经过时。</p>
<p>字典词干提取器对于字典中不存在的词无能为力。而一个基于算法的词干提取器，则会继续应用之前的相同规则，结果可能正确或错误。</p>
</dd>
<dt>
<span class="term">
大小与性能
</span>
</dt>
<dd>
<p>字典词干提取器需要加载所有词汇、 所有前缀，以及所有后缀到内存中。这会显著地消耗内存。找到一个词的正确词干，一般比算法化词干提取器的相同过程更加复杂。</p>
<p>依赖于不同的字典质量，去除前后缀的过程可能会更加高效或低效。低效的情形可能会明显地拖慢整个词干提取过程。</p>
<p>另一方面，算法化词干提取器通常更简单、轻量和快速。</p>
</dd>
</dl>
</div>
<div class="tip admon">
<div class="icon"></div>
<div class="admon_content">
<p>如果你所使用的语言有比较好的算法化词干提取器，这通常是比一个基于字典的词干提取器更好的选择。对于算法化词干提取器效果比较差（或者压根没有）的语言，可以使用拼写检查（Hunspell）字典词干提取器，下一个章节会讨论。</p>
</div>
</div>
</div>
<div class="navfooter">
<span class="prev">
<a href="algorithmic-stemmers.html">« 词干提取算法</a>
</span>
<span class="next">
<a href="hunspell.html">Hunspell 词干提取器 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>